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СОМРВЕЗУТОМ 


В статье исследуется проблема передачи и хранения больших объемов данных. Проводится 
сравнение различных методов сжатия текстовых данных без потерь. В качестве исследуемых данных 
выбраны тексты на русском, английском языках и НТМГ-файлы. Для повышения коэффициента сжатия 
предложен смешанный механизм сжатия и приведены оценки его работы. 
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Введение 

Функции современных вычислительных систем состоят в приеме, хранении, 
передаче, обработке информации и выдаче результатов. Сегодня исключительное 
значение приобретают акции приема и хранения информации, что, в основном, 
определяется все возрастающим ее объемом. Различные датчики и коммуникационные 
среды собирают терабайты информации об окружающей среде. 

В 2007 году объем выработанной информации превысил возможности 
технических средств для ее хранения, а информация продолжает интенсивно 
наращиваться. Информация поступает из интернета, социальных сетей, научных 
экспериментов и различных девайсов. Аналитики утверждают, что каждую секунду в 
мире отправляются около 2,9 миллиона электронных сообщений, объем видео, 
помещаемого на УочТиБе каждую минуту - 20 часов, объем данных, обрабатываемых 
Соозе за день — 24 петабайта (10'!5), а объем данных переданных/полученных на 
мобильные устройства — 1,3 эксабайт (10'). 

Генерируют информацию бытовые приборы. Активно идет мониторинг в 
сельском хозяйстве. Так, например, в США результаты мониторинга отдельной особи 
на среднестатистической молочной ферме в штате Калифорния генерируют около 200 
мегабайт информации в год. Значительный объем представляют сведения об 
имеющейся информации в различных научных отчетах по экономике, других отраслях. 

Для обработки таких данных создавались новые инструменты и технологии, 
начиная с модели МарКедисе компании Соое и Надоор от компании Уавоо, ушедшие 
от прежней жесткой иерархии и однородности данных [1]. 

В последнее время в мире созданы различные исследовательские центры и 
институты, которые разрабатывают методы интеллектуального анализа данных (Раёа 
Ми), позволяющие обнаруживать в данных ранее неизвестные, нетривиальные 
знания, которые имеют практическое применение при решении ряда задач. Основные 
проблемы больших данных обычно связывают с их объемом (уоте), скоростью 
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передачи и обработки (уосИу) и неоднородностью данных (уапеу). Наибольший 
интерес у исследователей вызывает объем данных. 

Появившееся направление В1е Ра, по анализу и обработке больших данных, не 
содержит концептуально новых идей по сравнению с имеющимися при обработке 
данных. Отличие состоит лишь в создании новых подходов к формированию знаний о 
данных, связанных с успехами в компьютерных науках, в частности, с созданием 
высокопроизводительных средств (до нескольких десятков петабайт в секунду) и 
новых информационных технологий [2]. 

Каждый день население Земли увеличивается на 220 тысяч человек, а к 2020 году 
жители планеты будут иметь 20 млрд. различных девайсов с выходом в Интернет. В 
киберпространстве собираются огромные объемы данных о странах, производствах, 
системах управления и личном пространстве человека. Этот искусственный интеллект 
уже угрожает существованию интеллекта естественного. 

В работе рассматривается задача эффективного хранения информации с 
возможностью ее последующей обработки. В основу исследований положен механизм 
сжатия данных [3]. 

Ниже исследуются различные алгоритмы компрессии информации, проводится их 
сравнение по ряду параметров, предлагаются, реализуются и оцениваются способы их 
упорядочения для улучшения значений выбранных параметров. 

Анализ алгоритмов 

Представление информации любого типа (звук, текст, графика), как правило, 
избыточно. Удалив такую избыточность, можно существенно уменьшить требования к 
техническим средствам хранения информации. 

Среди алгоритмов компрессии различают обратимые и необратимые, 
позволяющие либо полностью восстановить сжатую информацию, либо иметь 
некоторые потери. В одних случаях потери недопустимы, в других - возможны. 
Степень допустимых потерь (отличие от оригинала) определяется возможностью 
распакованных данных для дальнейшего использования. Алгоритмы такого рода 
безусловно обеспечивают более высокую степень сжатия [3,4]. 

Основной принцип сжатия использует тот факт, что в текстовых файлах неко- 
торые фрагменты частично или полностью повторяются. Используя математическое 
моделирование, можно определить вероятность повторения определенной комбинации 
символов. После этого наиболее часто повторяющимся фрагментам присваиваются 
самые короткие коды, используя различные технические приемы. 

Среди множества алгоритмов сжатия без потерь рассмотрим наиболее 
используемые алгоритмы и их различные комбинации, чтобы достичь наилучших 
значений выбранных параметров. 

Для исследования была выбрана текстовая информация, представляемая на 
русском, английском языках и языке разметки веб-документов НТМГ.. Параметры, по 
которым проводился сравнительный анализ, время компрессии и коэффициент сжатия. 

В качестве основных алгоритмов выбраны: алгоритм Хаффмена, алгоритм 
Лемпеля — Зива — Велча (Г7\№), алгоритм Шеннона-Фано, алгоритм кодирования длин 
серий (пи-йепо епсодше, ВСЕ), алгоритм Лемпеля-Зива-77 (1.777). 

Суть алгоритма Хаффмена состоит в построении кодов переменной длины по 
вероятности вхождения символов в заданное сообщение. 

Алгоритм Лемпеля — Зива — Вельча основан на создании в динамике таблицы 
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определенным последовательностям символов (слов) ставятся в соответствие группы 
бит фиксированной длины (обычно 12-битные). 

Кодирование Шеннона — Фано использует избыточность сообщения, состоящую в 
неоднородном распределении частот символов его (первичного) алфавита, заменяя 
коды часто встречающихся символов короткими двоичными последовательностями, а 
коды редко встречающихся символов — длинными последовательностями. 

Алгоритм КГЕ (Вип — Гепой епсодт®) основан на замене повторяющихся 
символов одним символом с указанием количества повторов. 

Построение кода по алгоритму Лемпеля — Зива — 77 использует два базовых 
компонента: принцип скользящего окна, учитывающего ранее встречающуюся 
информацию, заменяя последующие вхождения ссылками на их первое вхождение, и 
механизм кодирования совпадений, задавая длину совпадения и смещение. 

Эксперименты и оценки 

Для реализации обозначенных алгоритмов был выбран язык Руюп, позволяющий 
за небольшое время разработать компактное приложение, обладающее кроссплат- 
форменностью. В качестве операционной системы выбрана широкоиспользуемая ОЗ 
Утдо\з 7. Главная задача разработанного приложения состоит в получении оценок 
работы алгоритмов на трех типах файлов по времени выполнения и коэффициенту 
сжатия для текстов различных объемов. Полученные оценки определяют 
целесообразность их применения при реальной компрессии текстов. Соответствующие 
графики даны в приведенных ниже рисунках. 

Структура рисунков 1 и 2: на оси абсцисс находятся имена алгоритмов, на оси 
ординат — время работы алгоритма в миллисекундах. На рисунках 3 и 4 на оси ординат 
обозначен коэффициент компрессии, достигаемый конкретным алгоритмом. Объем 
исследуемого файла дан над графиком. Следует отметить, что время чтения файла, 
построение символьной последовательности и записи результата в выходной файл 
включено в общую оценку алгоритма. 
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Рис. 1. График зависимости времени выполнения от объема данных (1КЪ) 
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Рис. 2. График зависимости времени выполнения от объема данных (4 МЬ) 


На малых объемах исходных текстов видно, что алгоритм Лемпеля-Зива-Вельча 
ведет себя практически одинаково по времени для всех типов текстовых файлов, в то 
время, как алгоритм ВГЕ показывает худшее время в среднем, а алгоритмы Хаффмена 
и Шеннона-Фано реагируют заметно на тип обрабатываемого файла. На больших 
объемах файлов наиболее заметна зависимость времени работы алгоритмов от 
выбранного типа файла. 
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Рис. 3. График зависимости степени сжатия от объема данных (1КЪ) 
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Рис. 4. График зависимости степени сжатия от объема данных (4 МЬ) 
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По степени сжатия (рисунки 3 и 4) ряд рассматриваемых алгоритмов не зависит 
от рассматриваемых типов файлов при их небольших объемах. При возрастании 
объемов файлов для всех их типов лучшим по коэффициенту компрессии оказался 
алгоритм Г.М. 

Генерация порядка следования 

Естественно, возникает вопрос, а что будет, если мы, после применения одного 
алгоритма для текста, попытаемся применить второй алгоритм уже для сжатого текста. 
На рисунке 5 приведен пример такого механизма улучшения коэффициента сжатия и 
сокращения времени работы. Из графика видно, что наихудшая связка по гаНно 
Хаффмен —> Шеннон-Фано. Наибольшее время дает связка Хаффмен —› Г.777, но 
коэффициент сжатия вполне приемлем. 
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Рис. 5. График для комбинации алгоритмов с алгоритмом Хаффмена 


Рассмотрение различных упорядочений исследуемых алгоритмов показало, что 
наилучшая степень сжатия достигнута при применении алгоритма Хаффмена после 
алгоритма Г.7№, и наилучшее время достигнуто при применении алгоритма Хаффмена 
после ВГЕ. Файлы анализировались от 1КВ до 4 МВ. Для текстовых файлов это вполне 
достаточный интервал объемов, который позволяет сделать определенные выводы о 
качестве алгоритмов и эффективности механизма их упорядоченного использования. 

Разработан простой графический интерфейс, позволяющий выбрать необходимый 
файл (кнопка «Ореп Не»), необходимый алгоритм (по названиям) и запустить его 
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работу (кнопка «Соип®). Результаты работы приложения (время выполнения и 
коэффициент сжатия) отобразятся в поле вывода. 


Интерфейс приложения представлен на рис.6 
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Рисунок 6 - Интерфейс приложения 


Заключение 
Исследования показали, что эффективность применения алгоритмов сжатия к 


разнотипным текстам как по коэффициенту компрессии, так и по времени работы 
существенно зависит от структуры текста и формы его представления. Особый интерес 
представляет механизм упорядоченного воздействия алгоритмов на исходный файл. 
Важно, что такой механизм значительно повышает коэффициент сжатия, а его 
эффективность существенно зависит от порядка их следования и типа файла. 
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ВЕЗОМЕ 

М.К. Вои7а 
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Тодау зослеёу сепегае$ уа${ уо[атез оГ шЮптаНоп. ТВе рарег зо]уез Ше ргоет оЁ 
еЁРИслепе збюогаре о |агое дайа. Еог 115 ригрозе ве зеесе4 а1еогИбил$ оЁ геуегмЫе аа 
сотрге5$1юп. — \е шуезисае Ше розу оЁ Аегеп" сотргез1оп а[2отИт$: НийЙтеп, 
Гетре1-7лу-\\е|сВ, ЗВаппоп-Еапо, Кип-Гепо@ содше, Гетре]-7лу-77. Тех5 ш Киззап, 
Еп?П$Н апа НТМГ-Не$ ууеге з@е‹е4 аз шриё. Тне уоитез ог шриё дайа \уеге свапзеа 
Нот 1 КЬ ® 4 МЬ. Еог {ехЕ Нез 15 уошите 15 зиРЯслепе Рог гезеагсн ап@ ог р!аизе 
сопс[а$101$. Тууо стцепа оЁ еЁйслепсу ууеге зесе4: Ше сотргезз1оп гайо ап4 сотргез$10п 
ите. Езитаез оЁ Пе еЁЙсасу оЁ\Фезе а1еотИил$ \еге отуеп Юг з@ес{е4 {урез оР1ех5. 

Тре рарег о1уез Ше пихе4 тесвап1зт оЁ сотргез$1оп оЁ{ехё Нез ап4 15 еНесйуепез$ 
Бу Ше зате стцепа. Ц 1$ пойе@ аё фе еНесНуепез$ оЁГ Фе а1еогИ $ ап фе ргорозеа 
тесрап1$т 4ереп4$ оп ше згасвиге оЁ Фе {ех{Е апа е Гогт оЁ 15 ргезещайоп. 

Зрес1а| айепНоп 4езегуез Фе ппрасЁ оГ Фе тесВаплзт оЁ зепегайоп оЁ ог4дег оЁ 
сотргез$1юп оп Ше ргосеззе 1ехё. ТНе уа[аез оР а сгиема 4ереп4 оп йе ог4ег ог Фе 
а|еотил$. За ез ПВауе зВо\п Шаё Фе Ъе5ё сотргез$1оп 1$ асшеуе4 изше НийЙтеп 
а|еотт айег фе а|еогибт Г.М. Те Без{ Ите о{ сотргеззюп оБатеа Бу арр!уше Фе 
Нийтеп а|еогИбт айег Фе аогит Кип-Гепо@ софте. И 1$ пое4, Фа Фе \уогзЕ оЁ 1е 
БапсН аё Ше гайо НиЁтеп — Зваппоп — Рапо. ТВе огеайе$( Иите сотргез$10п о1уез а БипсВ 
ог НиЁтеп — Г.7/77, \ВЦе ®е сотрге$1оп гайо 1$ дийе ассераЫе. 

ТВе ргорозе4 теспапзт оё сепегаНоп оЁ Фе аррИсайоп оЁ сотргез$1оп а]еогИти$ 1$ 
иптуегза|. Ё сап Бе изе4 ог сотргез$1оп оЁ Аегеп! фурез оЁ даа: атоИгагу 1ех5, отарН1сз, 
зоип4, ай офег. 
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